Population and Sample

定义

总体(Population)是一组随机变量(Random Variable),可以理解为一种数据生成过程(Data Generating Process)。

在回归分析中,总体一般记作 (Y,X),其中 Y 是一个随机变量,X 是一个随机变量或随机向量。随机向量 X 记作 X=(X1,X2,...,Xk)T

样本(Sample)既可以在理论分析中(事前)看作一组随机变量,也可以在统计分析中(事后)看作一个数据集(Dataset)。

一般地,样本可以记作 {(Yi,Xi):i=1,,n},其中 (Yi,Xi) 称为一个观测值(Observation)。随机向量 Xi 记作 Xi=(X1i,X2i,...,Xki)T

常见地,样本可以记作 (Y,X)。其中,Y=(y1,y2,...,yn)T 是因变量数据向量;X 是自变量数据向量或数据矩阵。数据矩阵 X 的每个列分块是一个自变量数据向量,记作 X=(X1,X2,X3,...,Xk),其中

Xj=(x1j,x2j,,xnj)Tj=1,,k

注意区别,Xi 包含观测值 i 的所有自变量,为 (k×1) 列向量;Xj 包含自变量 j 的所有观测值,为 (n×1) 列向量。

样本往往被假设为是独立同分布的(independent and identically distributed,i.i.d),即如果 (Y,X)F ,则 (Yi,Xi)F ,且各观测值之间相互独立。

违背独立同分布假设的情形:

统计推断

称随机变量 f(Y,X) 为一个总体统计量(statistic);
称随机变量 g(Y1,,Yn,X1,,Xn) 为一个样本统计量。

给定一个总体,假定结构方程描述了变量之间的因果关系,因此需要构造总体统计量识别(identificate)结构方程的参数(parameter);由于总体是不可观测的,需要进一步构造样本统计量推断(infer)总体统计量。

其中,用于识别参数的总体统计量称为 estimand;用于推断总体统计量的样本统计量称为估计量(estimator),再根据数据计算得到估计值(estimate)。
estimator

“Econometric identification really means just one thing: model parameters or features being uniquely determined from the observable population that generates the data” -Lewbel (2019)